МІНІСТЕРСТВО ОСВІТИ І НАУКИ, МОЛОДІ ТА СПОРТУ УКРАЇНИ
НУ «ЛЬВІВСЬКА ПОЛІТЕХНІКА»
ІНСТИТУТ КОМП’ЮТЕРНИХ НАУК ТА ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ
КАФЕДРА СИСТЕМ АВТОМАТИЗОВАНОГО ПРОЕКТУВАННЯ
ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ.
АВТОМАТИЧНИЙ СИНТАКСИЧНИЙ АНАЛІЗ (частина2).
Методичні вказівки до лабораторної роботи № 11
з дисципліни «Комп’ютерна лінгвістика»
для магістрів за фахом 8. 02030303 «Прикладна лінгвістика»денної та заочної форм навчання
Затверджено на засіданні кафедри
«Системи автоматизованого проектування»
Протокол № 16 від 17.05.2011 р.
Затверджено на засіданні методичної ради ІКНІ
Протокол № 9-10/11 від 18.05.2011 р.
Зареєстровано в НМУ НУ «ЛП»
№ 3516 від 2.06.2011
Львів-2011
ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. АВТОМАТИЧНИЙ СИНТАКСИЧНИЙ АНАЛІЗ (частина1). Методичні вказівки до лабораторної роботи № 11 з дисципліни «Комп’ютерна лінгвістика» для магістрів за фахом 8.02030303 «Прикладна лінгвістика» денної та заочної форм навчання/Укл. А.Б.Романюк, І.Ю Юрчак. - Львів: Національний університет «Львівська політехніка», 2011. – 16 с.
Укладачі:
Романюк А. Б., канд. техн. наук, доцент
Юрчак І.Ю., канд. техн. наук, доцент
Відповідальна за випуск:
Юрчак І.Ю., канд. техн. наук, доцент
Рецензент:
Теслюк В.М., д.т.н., професор кафедри САПР
МЕТА РОБОТА
Вивчення основ програмування на мові Python.
Ознайомлення з автоматичним синтаксичним аналізом в NLTK.
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
1. Вступ.
В попередніх лабораторних роботах основна увага була зосереджена на словах: яким чином їх ідентифікувати, здійснити аналіз їх структури, здійснити їх морфологічний аналіз та дізнатися їх значення. Крім цього розглядалися способи ідентифікації послідовності слів та n-грами. Але ці методи не торкаються дослідження речень, як граматичної конструкції, побудованої з одного чи кількох слів певної мови, яка становить окрему, відносно незалежну думку; це значеннєве, граматичне і інтонаційне ціле, що виражає якусь думку в відношенні її до дійсності (предикативність, створена категоріями модальності, часу й особи) одним словом чи сполукою слів. Потрібно вирішувати задачу обробки необмеженої множини довільних речень. Потрібно розробляти програми аналізу структури речень і дослідження значення цих речень.
Метою цієї та наступної лабораторних відповісти на наступні питання:
Яким чином використовується формальна граматика для представлення структури необмеженого набору речень?
Як представити синтаксичну структуру речення використовуючи дерева?
Яким чином синтаксичний аналізатор здійснює аналіз речення і автоматично будує синтаксичну структуру у вигляді дерева?
Деякі граматичні дилеми
Лінгвістичні дані та необмежені можливості.
При виконанні попередніх лабораторних робіт значна увага приділялася обробці та аналізу текстових корпусів текстів та наголошувалось на проблемах обробки природної мови в зв’язку з лавиноподібною кількість лінгвістичних даних. Припустимо, що можна побудувати корпус, який буде містити все що було сказано чи написано англійською (чи будь-якою іншою мовою) за останні 50 років. Чи справедливо назвати такий корпус – корпусом сучасної англійської мови? Очевидно, що легко знайти багато причин щоб дати негативну відповідь. Якщо здійснити пошук словосполучення «the of» то виявляється можна знайти дуже багато прикладів його вживання, наприклад New man at the of IMG (http://www.telegraph.co.uk/sport/2387900/New-man-at-the-of-IMG.html). (http://www.telegraph.co.uk/sport/2387900/New-man-at-the-of-IMG.html ). Спеціалісти, які володіють англійською мовою назвуть такі приклади помилкою, і скажуть що ці приклади не належать англійській мові. Відповідно, не можна вважати «сучасною англійською» велику кількість послідовностей слів з нашого уявного корпуса. Носії мови можуть розглядати такі послідовності і відкидати деякі з них як такі що не є граматичними (не відповідають граматиці природної мови). Звичайно, можна побудув...